Estimation robuste des modèles de mélange sur des données distribuées
نویسنده
چکیده
This work proposes a contribution aiming at probabilistic model estimation, in the setting of distributed, decentralized, data-sharing computer systems. Such systems are developing over the internet, and also exist as sensor networks, for instance. Our general goal consists in estimating a probability distribution over a data set which is distributed into subsets located on the nodes of a distributed system. More precisely, we are at estimating the global distribution by aggregating local distributions, estimated on these local subsets. Our proposal exploits the following assumption: all distributions are modelled as a Gaussian mixture. Our contribution is a solution that is both decentralized and statistically robust to outlier local Gaussian mixture models. The proposed process only requires mixture parameters, rather than original data.
منابع مشابه
Co-clustering de données mixtes à base des modèles de mélange
Résumé. La classification croisée (co-clustering) est une technique non supervisée qui permet d’extraire la structure sous-jacente existante entre les lignes et les colonnes d’une table de données sous forme de blocs. Plusieurs approches ont été étudiées et ont démontré leur capacité à extraire ce type de structure dans une table de données continues, binaires ou de contingence. Cependant, peu ...
متن کاملForage distribué des données : une comparaison entre l'agrégation d'échantillons et l'agrégation de règles
Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles ...
متن کاملFinite mixture models for exponential repeated data
The analysis of finite mixture models for exponential repeated data is considered. The mixture components correspond to different possible states of the statistical units. Dependency and variability of repeated data are taken into account through random effects. For each component, an exponential mixed model is thus defined. When considering parameter estimation in this mixture of exponential m...
متن کاملModèles de mélanges topologiques pour la classification de données catégorielles et mixtes
Résumé. Cet article présente une méthode basée sur les cartes auto-organisatrices probabilistes dédiées à la classification non supervisée et la visualisation de données catégorielles et des données mixtes contenant des composantes quantitatives et binaires. Pour chacun de ces types de données, nous proposons un formalisme probabiliste dans lequel les unités de la carte topologique sont représe...
متن کاملApproches géométriques pour l'estimation des fractions d'abondance en traitement de données hyperspectrales. Extensions aux modèles de mélange non linéaires
RÉSUMÉ. De récentes études ont montré l’avantage de l’approche géométrique en démélange de données hyperspectrales. Elle permet d’identifier les signatures spectrales des composants purs. Jusqu’ici, l’estimation des fractions d’abondance a toujours été réalisée dans un second temps, par résolution d’un problème inverse généralement. Dans cet article, nous montrons que les techniques géométrique...
متن کامل